iT邦幫忙

2025 iThome 鐵人賽

DAY 19
0

把「聲音 → 文字」
流程:
收集資料:大量的語音錄音 + 對應逐字稿(最好有多種口音、音量、背景雜訊)
資料前處理:
降噪、切分語音片段,把音檔轉成 梅爾頻譜 (Mel-spectrogram)

模型選擇:
1.傳統:HMM + GMM
2.現在主流:深度學習模型(RNN, Transformer, wav2vec 2.0, Whisper)。

訓練:讓模型學習「語音特徵 ↔ 文字」對應關係

微調:針對特定領域(例如醫療、客服)加上專屬詞庫

語音合成(Text-to-Speech, TTS)

把「文字 → 聲音」
流程:
收集語音資料:
找一位聲音清晰的配音員錄製數小時以上(幾千到幾萬句)配對的「文字 + 音檔」

前處理:
把文字轉成 音素(語音單位),避免多音字問題,把音檔轉成梅爾頻譜

模型選擇:
1.Tacotron 2(Google)、FastSpeech、VITS(現代端到端)
2.聲碼器(Vocoder,如 WaveNet、HiFi-GAN)把頻譜轉成真實波形

訓練:學習「文字/音素 → 聲音特徵 → 波形」

應用:可以生成不同語氣、情感,甚至做聲音克隆


上一篇
生成式ai的法律爭議
下一篇
隱形水印是什麼
系列文
認識生成式AI的結構及運作原理22
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言